智能论文笔记

A tool to overcome technical barriers for bias assessment in human language technologies

Laura Alonso Alemany , Luciana Benotti , Lucía González , Jorge Sánchez , Beatriz Busaniche , Alexia Halvorsen , Matías Bordone

分类：自然语言处理 | 人工智能

2022-07-14

语言的自动处理在我们的生活中普遍存在，经常在我们的决策中扮演核心角色，例如为我们的消息和邮件选择措辞，翻译我们的读物，甚至与我们进行完整的对话。单词嵌入是现代自然语言处理系统的关键组成部分。它们提供了一种词的表示，从而提高了许多应用程序的性能，从而是含义的表现。单词嵌入似乎可以捕捉到原始文本中单词的含义的外观，但与此同时，它们还提炼了刻板印象和社会偏见，后来传达给最终应用。这样的偏见可能是歧视性的。检测和减轻这些偏见，以防止自动化过程的歧视行为非常重要，因为它们的规模可能比人类更有害。目前，有许多工具和技术可以检测和减轻单词嵌入中的偏见，但是它们为没有技术技能的人的参与带来了许多障碍。碰巧的是，大多数偏见专家，无论是社会科学家还是对偏见有害，没有这样的技能的环境，并且由于技术障碍而无法参与偏见检测过程。我们研究了现有工具中的障碍，并与不同种类的用户探索了它们的可能性和局限性。通过此探索，我们建议开发一种专门旨在降低技术障碍的工具，并提供探索能力，以满足愿意审核这些技术的专家，科学家和一般人的要求。

translated by 谷歌翻译

机器学习文献中通常使用许多不同的性能指标，用于输出分类决策的分类系统。一些最常见的是准确性，总误差（一个减去精度），平衡的精度，平衡的总误差（一个减去平衡精度），F得分和MATTHEWS相关系数（MCC）。在本文档中，我们回顾了这些指标的定义，并将其与预期成本（EC）进行比较，这是在每个统计学习课程中介绍的指标，但在机器学习文献中很少使用。我们表明，EC的经验估计是总误差和平衡总误差的广义版本。此外，我们证明了它与F-Score和MCC的关系，并认为EC优于它们，更一般，更简单，直观和动机。我们重点介绍了F-评分和MCC的一些问题，使它们成为次优指标。虽然在本手稿的当前版本中没有解释，但我们专注于根据艰难决策进行计算的指标，但EC具有额外的优势，是衡量系统分数校准的好工具，并允许用户做出最佳决策。每个班级的一组后代。我们将讨论留给本手稿的未来版本。

translated by 谷歌翻译

口语识别（SLR）是指用于确定语音样本中存在的语言的自动进程。例如，SLR是一个重要的任务，例如，作为分析或分类大量多语言数据的工具。此外，它也是用于在工作流中选择下游应用的必要工具，例如，选择适当的语音识别或机器转换模型。 SLR系统通常由两个阶段组成，其中提取表示音频样本的嵌入的一个阶段，并且第二个是计算每种语言的最终分数的次数。在这项工作中，我们将SLR任务接近作为检测问题，并实现第二阶段作为概率线性判别分析（PLDA）模型。我们表明，对PLDA参数的鉴别性培训相对于通常的生成培训提供了大的收益。此外，我们提出了一种新的分层方法是训练了两个PLDA模型，一个是生成高度相关语言的集群的分数，以及第二个是为每个群集产生分数的分数。最终的语言检测分数被计算为这两种分数的组合。完整的模型判别训练，以优化跨熵目标。我们表明，该层次方法始终如一地优于非等级化，以检测高度相关的语言，在许多情况下大幅度的边缘。我们培训我们的系统在包含100种语言的数据集合中，并在匹配和不匹配的条件下测试它们，表明增益是强大的状态不匹配。

translated by 谷歌翻译

根据研究人员在歧视和校准性能方面采用的标准评估实践，这项工作旨在了解阶级不平衡对胸部X射线分类器的性能的影响。首先，我们进行了一项文献研究，分析了普通科学实践并确认：（1）即使在处理高度不平衡的数据集时，社区也倾向于使用由大多数阶级主导的指标; （2）包括包括胸部X射线分类器的校准研究仍然罕见，尽管其在医疗保健的背景下的重要性。其次，我们对两个主要胸部X射线数据集进行了系统实验，探讨了不同类别比率下的几种性能指标的行为，并显示了广泛采用的指标可以隐藏少数阶级中的性能。最后，我们提出了通过两个替代度量，精密召回曲线和平衡的Brier得分，这更好地反映了系统在这种情况下的性能。我们的研究结果表明，胸部X射线分类器研究界采用的当前评估实践可能无法反映真实临床情景中计算机辅助诊断系统的性能，并建议改善这种情况的替代方案。

translated by 谷歌翻译